热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据需要学什么

第一方面:大数据离线分析一般处理T+1数据,这里的T可以代表一天,一周、一个月以及一年等。这里我用的Hadoop的版本是Hadoop2.X,它有四个模块(common、HDFS、Map

第一方面:大数据离线分析

一般处理T+1数据,这里的T可以代表一天,一周、一个月以及一年等。这里我用的Hadoop的版本是Hadoop 2.X,它有四个模块(common、HDFS、MapReduce、YARN)。

下面是Hadoop的四个模块的详细介绍

模块

介绍

Hadoop common

支持其他模块的工具模块

Hadoop Distributed File System (HDFS)

分布式文件系统,提供了对应用程序数据的高吞吐量访问。

 进程:    NameNode                        名称节点                          NN

                 DataNode                          数据节点                          DN

          SecondaryNamenode           辅助名称节点                      2ndNN

 

Hadoop YARN

作业调度与集群资源管理的框架。

进程

                    ResourceManager  资源管理—RM

NodeManager     节点管理器—NM

Hadoop MapReduce

基于yarn系统的对大数据集进行并行处理技术

Hive:大数据数据仓库,通过写SQL对数据进行操作,类似于mysql数据库中的sql。

Hbase:基于HDFS的NOSQL(not only SQL)数据库,面向列的存储

 

下面是hive与Hbase的比较

Hive

Hbase

1、可以理解为一种SQL执行引擎,对SQL的支持最终转换为map/reduce任务

2、不支持更新、删除操作,但可以插入

3、任务不是实时执行,用时一般为数分钟到数小时

4、本身可以不存储数据,只存储关于数据的元数据,偏重于逻辑结构,是一种数据仓库

5、适合于静态大数据量的查询、分析、汇总,不适合联机实时数据处理

6、操作一般以全表数据为基础,但也有分区等概念

1、不支持SQL

2、支持增删改查操作

3、任务实时执行

4、本身存储数据,有复杂的物理存储结构,是一种真正的数据库

5、适合联机实时数据处理

6、操作以列为基础

总结:
hive
hbase都是以Hadoop为基础构建;
Hive
是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,是用SQL替代写MR的编程框架,而HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。
Hive
是一种能执行MapReduce作业的类SQL编程接口,而Hbase是一种非关系型的数据库结构。

协作框架:

sqoop(桥梁:HDFS 《==》RDBMS)实现数据库的互导,也就是分布式文件系统与关系数据库之间的互导。

flume:收集日志文件中信息,一般是收集tomcat的日志信息。(现在大多数企业都在使用Tomcat)。

大数据的中数据来源:爬出关系数据库中。

下面介绍的是一些大数据中常用的一些框架:

调度框架anzkaban,了解:crontab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)。

扩展前沿框架:kylin、impala(偏向于实时)、ElasticSearch(ES)。  

      第二方面:大数据实时分析

框架名称

类比

解释

以spark框架为主

      

 

 

Scala

Scala:OOP + FP

Oop(object oriented programming)

sparkCore

类比MapReduce

 

sparkSQL

类比hive

 

sparkStreaming

 

实时数据处理

    kafka

 

消息队列

前沿框架扩展:flink 

           阿里巴巴 blink


第三方面:大数据机器学习(扩展)

spark MLlib:机器学习库

  pyspark编程:Python和spark的结合,推荐系统

  python数据分析

  Python机器学习



推荐阅读
  • 参考文档:MaterializedViewRefresh:Locking,Performance,Monitoring(文档ID258252.1)HowtoMonit ... [详细]
  • 揭秘双11丝滑般剁手之路背后的网络监控技术
    概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)实时计算Flink搭建的云原生实 ... [详细]
  • 阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • linux服务器时间同步失败解决方法
    linux服务器时间同步失败解决方法1、为什么会时间不同步:①计算机的时间是根据电脑晶振以固定频率震荡而产生的,由于晶振的不同或者老化,会 ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 一、设置时区方法一:使用setup工具setup选择Timezoneconfiguration选择AsiaShanghai空格键勾选上System ... [详细]
  • 阿里云mysql性能,阿里云mysql性能
    本文目录一览:1、mysqld占用CPU过高是什么原因 ... [详细]
  • ASP.NET Core+Quartz.Net实现web定时任务
    点击蓝色“DotnetPlus”关注我哟加个“星标”,每天清晨07:25,干货推送!作为一枚后端程序狗,项目实践常遇到定时任 ... [详细]
  • ftp和文件服务器,ftp和文件服务器的区别
    ftp和文件服务器的区别内容精选换一换obsftp工具于2021年2月9日正式下线,下线后OBS不再对此工具提供维护和客户支持服务,给您带来不便敬请谅解 ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
  • 大数据开发笔记(一):HDFS介绍
    ✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限 ... [详细]
  • 怎么快速学好大数据开发?
    新如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题,已成为热门大数据领域热门问题,以下是对新手如何学习大数据技术问题的解答! ... [详细]
author-avatar
手机用户2502936263
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有